智能论文笔记

通过图像差异发现新瞬态的能力而无需直接人类干预是观察天文学的重要任务。对于此类图像分类问题，机器学习技术（例如卷积神经网络（CNN））表现出了显着的成功。在这项工作中，我们介绍了来自Dark Energy Survey Supernova计划（DES-SN）的CNN上的图像上自动瞬态识别的结果，其主要重点是使用IA型超新星用于宇宙学。通过对CNN进行架构搜索，我们可以从工件（图像缺陷，错误分配等）中确定有效选择非艺术的网络（例如，超新星，可变星，AGN等），可实现先前工作的效率在随机的森林中，无需花费任何特征识别的努力。 CNN还可以帮助我们确定一个标记错误的图像的子集。在此子集中对图像进行重新标记，与CNN的结果分类明显优于以前的结果。

translated by 谷歌翻译

近年来，人类面孔的影子化化身已经走了很长一段路，但是该地区的研究受到缺乏公开可用的高质量数据集的限制。在这项工作中，我们介绍了Multiface，这是一种新的多视图，高分辨率的人脸数据集，该数据集是从13个身份的神经面部渲染研究中收集的13个身份。我们介绍了Mugsy，这是一种大型多摄像机设备，可捕获面部表现的高分辨率同步视频。 Multiface的目的是缩小学术界高质量数据的可访问性的差距，并使VR触觉研究能够进行研究。随着数据集的释放，我们对不同模型体系结构对模型的新观点和表达式的插值能力进行消融研究。通过有条件的VAE模型作为我们的基线，我们发现添加空间偏见，纹理翘曲场和残差连接可改善新型视图合成的性能。我们的代码和数据可在以下网址获得：https：//github.com/facebookresearch/multiface

translated by 谷歌翻译

Robust Egocentric Photo-realistic Facial Expression Transfer for Virtual Reality

Amin Jourabloo , Baris Gecer , Fernando De la Torre , Jason Saragih , Shih-En Wei , Te-Li Wang , Stephen Lombardi , Danielle Belko , Autumn Trimble , Hernan Badino

分类：计算机视觉

2021-04-10

社会存在，与真实的人在一起的感觉，将推动由数字人类在虚拟现实（VR）中驱动的下一代通信系统。最佳的3D视频VR化身最小化不可思议的效果取决于特定于人的模型。但是，这些PS模型既耗时又耗时，并且通常受到数据可变性有限的训练，从而导致概括和稳健性差。影响面部表达转移算法准确性的主要变异性包括使用不同的VR耳机（例如，摄像头配置，耳机的斜率），面部外观随时间变化（例如，胡须，化妆）和环境因素（例如，，照明，背景）。这是VR中这些模型可扩展性的主要缺点。本文通过提出了通过专门的增强策略培训的端到端多个认同体系结构（MIA）来克服这些局限性的进展。 MIA使用最小的个性化信息（即中性的3D网格形状），从VR耳机中的三个相机（两只眼睛，一只嘴）从三个相机（两只眼睛，一只嘴）驱动了头像的形状。同样，如果可用PS纹理解码器，MIA能够在具有挑战性的情况下驱动完整的Avatar（Shape+Texture）强劲的PS模型。我们对改善鲁棒性和概括的关键贡献是，我们的方法以无监督的方式隐含地将面部表达与滋扰因素（例如耳机，环境，面部外观）脱离。我们在各种实验中证明了所提出的方法与最先进的PS方法的卓越性能和鲁棒性。

translated by 谷歌翻译

Word Embeddings从单词共同发生统计信息中捕获的语言规律学习隐式偏差。通过延长定量单词嵌入中的人类偏差的方法，我们介绍了valnorm，一种新的内在评估任务和方法，以量化人类级字体群体的价值维度与社会心理学。从七种语言（中文，英语，德语，波兰语，葡萄牙语，西班牙语和土耳其语）以及跨越200年的历史英语文本，将Valnorm应用于静态词嵌入式Valnorm在量化非歧视性的非社交组字集的价值方面达到了始终如一的高精度。具体而言，Valnorm实现了r = 0.88的Pearson相关性，用于399个单词的人类判断得分，以建立英语的愉快规范。相比之下，我们使用相同的单词嵌入品测量性别刻板印象，并发现社会偏见因语言而异。我们的结果表明，非歧视性，非社会群组词的价协会代表着七种语言和200多年的广泛共享的协会。

translated by 谷歌翻译